[Day2] 原來爬蟲這麼方便

2024 iThome 鐵人賽

DAY 2

自我挑戰組

16th鐵人賽

574 瀏覽

今天是第二天，昨天簡略查詢了一下爬蟲是甚麼，現在讓我們正式開始攻略它吧!
網路爬蟲具體來說就是向網站傳送GET請求或其他方式請求網址內容，伺服器就會將網頁的原始碼回傳，通常會是HTML文件，而網路爬蟲取得HTML文件後，服務器返回應網頁的HTML文件，獲取需要的資料，並將資料儲存在資料庫中。

其實爬蟲就是一種能夠自動抓取資料的工具，它能夠協助我們更有效率的完成工作，減少用人工大量又繁瑣的重複性動作，並且節省非常多時間。

來了解一下網路爬蟲究竟有甚麼優點與缺點吧:
優點:
1.自動化取代真人
2.節省不必要的時間
3.能夠處理大量資料
4.是搜尋引擎的要件

缺點:
1.有一些網站的作者禁止其他人爬取內容，未經過允許可能會觸犯到法律道德問題。
2.一次出現大量的爬蟲請求可能會帶給網站伺服器很大的負擔，恐怕會影響網站的正常運行。
3.爬蟲抓取到的資料不一定完全精準，還是要透過其他方式驗證。

明天第三天繼續加油!

系列文

30天認識爬蟲共 30 篇

6 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

IT邦幫忙